iT邦幫忙

2022 iThome 鐵人賽

DAY 14
0
自我挑戰組

用Python學習網路爬蟲30天系列 第 14

[Day14] 動態網頁擷取1_Selenium與環境安裝

  • 分享至 

  • xImage
  •  

動態網頁簡介

動態網頁是指網頁內容會隨著每一次瀏覽其出現的資訊可能會有所改變。例如:當日新聞資訊、每日更新的股票資訊等。而動態網頁可以分為兩種形式,如下所示:

  • 客戶端動態網頁:
    是在瀏覽器使用客戶端腳本語言(ex. JavaScript)所建立的網頁內容在使用者的電腦產生。
  • 伺服器端動態網頁:
    是在Web伺服器使用伺服端網路語言(ex. PHP、ASP.NET)產生來回應到客戶端的HTML網頁內容。例如:登入表單、商品清單、留言板等。

Selenium簡介

Selenium是一個跨平台的自動瀏覽器工具,在網路爬蟲的領域幫助我們擷取動態內容與HTML表單,也可以和網頁直接進行互動。而Selenium自動瀏覽器是由多種元件所組成的自動測試套件,簡單說明如下:

  • Selenium整合開發環境:
    此環境可以錄製、編輯和除錯建立的Selenium測試。
  • Selenium客戶端API:
    使用支援的程式(ex. Java、C#、Python)來建立Selenium的測試。
  • Selenium WebDriver:
    可以接收Selenium客戶端API方法送出的命令來控制Web瀏覽器。

安裝Selenium

  1. 開啟Anaconda Prompt命令提示字元來安裝Selenium客戶端API
    https://ithelp.ithome.com.tw/upload/images/20220928/20152180ll6C3GHZf0.png

    最後一行顯示 Successfully installed 表示安裝成功
    https://ithelp.ithome.com.tw/upload/images/20220928/20152180c5ZwxFuhrO.png

  2. 下載與安裝Google瀏覽器的驅動程式
    (1) 點選右上角三個點 -> 說明 -> 關於Google Chrome 確定使用版本
    https://ithelp.ithome.com.tw/upload/images/20220928/20152180waostmLjPG.png

    https://ithelp.ithome.com.tw/upload/images/20220928/20152180p9Hjb5RJR9.png

    (2) 到Chrome瀏覽器驅動程式網頁(https://sites.google.com/chromium.org/driver) 下載相對應版本
    https://ithelp.ithome.com.tw/upload/images/20220928/20152180csld6fIOS7.png

    https://ithelp.ithome.com.tw/upload/images/20220928/20152180CYNnp7yNef.png

    https://ithelp.ithome.com.tw/upload/images/20220928/201521800utviabEQ8.png

    (3) 檔案下載完成後,解壓縮zip檔至要執行程式的資料夾中及完成整體安裝流程


上一篇
[Day13] Beautiful Soup總複習
下一篇
[Day15] 動態網頁擷取2_Selenium網頁資料定位函數
系列文
用Python學習網路爬蟲30天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言